查看原文
其他

【论文】基于卷积神经网络的无人机影像违章建筑检测应用

测绘通报 南方数码 2022-10-30
本文刊于《测绘通报》2021年第4期

广东南方数码科技股份有限公司,广东 广州510665

梁哲恒,邓鹏,姜福泉,盛森,魏汝兰,谢刚生

作者简介:梁哲恒,1977年11月,男,汉族,广州,高级工程师,硕士,主要研究方向为GIS软件开发管理。


摘要

无人机航拍影像具有分辨率高、回访周期短等特点,利用无人机遥感技术手段对城市范围的建设进行动态监测,可及时、有效地发现涉嫌违法的建设活动。本文结合实际项目需求,研究通过卷积神经网络方法进行违章建筑的自动检测,替代过去靠大量人力检查的模式,目前测试区域无人机影像试验取得了较好的效果,在样本数据不足5000份的情况下,准确率和召回率分别达到了71%和88%。随着样本数据的不断增多,基于该深度学习方法将较大程度上持续提升检测准确率和召回率,能够更精准地发现违法活动,具有较大的实际应用价值及潜力。


关键词超高分辨率;遥感;无人机;深度学习;目标检测;违章建筑

随着国民经济持续健康地发展,城市规模不断扩大,但同时违法建筑也日益增多,严重破坏了城市规划和景观,且极易造成楼宇安全隐患。使用无人机航空摄影可及时获取城市重点区域高分辨率影像数据,通过影像可对违法建设施工数据进行判读,甄别疑似违章建筑,为主管部门提供决策依据。

目前,违章建筑的甄别主要采取人工目视解译的方法,不具备重复性、效率低下、耗费大量的人力及物力。然而,随着深度学习技术引入图像处理和模式识别领域[1],用于解决图像分类[2]、目标识别[3]、自然语言处理[4]、语音识别[5]等问题,使其具有较高的可行性,也给遥感影像处理带来了一个全新思路。

近几年,不断有学者开始将深度学习应用于遥感卫星图像的目标检测中,文献[6]基于Faster RCNN 及多部件结合的方法对机场场面静态飞机进行目标检测,准确率达到90%以上。文献[7]提出的建筑物自动检测方法,其检测准确率可达98%,召回率达92%。文献[8]基于Faster R-CNN 研究了在卫星影像上对水泥厂进行检测的方法,在扩充数据集上检出率可达94%。文献[9]采用基于候选区域的深度学习目标检测方法,综合对比了Faster RCNN 和R-FCN 2 种效果较好的算法,对遥感影像上的油罐目标进行了检测,召回率接近80%。
目前,关于使用深度学习方法对遥感影像中面向复杂违章建筑这类目标进行检测的研究较少。违章种类繁多、形态复杂,对于模型和样本的要求会更高。本文从实际项目需求出发,对无人机影像违章建筑检测进行了相关的研究,实现了违章建筑地物的自动化提取,大大提升了数据生产的效率。
1 基于深度学习的目标检测方法
基于深度学习的目标检测方法,从思路上来看,可分为两大类:一类是Two stage 方法,即算法流程分成2个阶段,生成候选框和识别框内物体,目前代表算法是Faster R-CNN[10],特点是精度高,至今仍是目标检测方面的主流算法之一;另一类是One stage 方法,其将整个流程进行了统一,直接给出检测结果,不显示生成候选框,主要包含YOLO[11]、 SSD[12]系列,其优点是泛化能力强、速度快,可达到实时检测的要求,但识别精准性较差、召回率低。
建立模型是深度学习技术的关键,通过对比上述几种目标检测网络,结合项目实际需求,从数据生产角度考虑,认为相对实时性而言,模型的检测精度更为重要,故选择Faster R-CNN作为本文研究的模型算法。
2 研究方法
根据遥感数据生产项目的数据特点和深度学习的关键步骤,本文技术路线如图1所示。总体分为模型训练及模型应用两部分。
图1 违章建筑检测技术路线
2.1 模型训练
模型训练的目标是通过样本训练,生成能够较好地拟合样本数据且具有不错泛化能力的目标检测模型,以实现违建建筑的自动化检测。
2.1.1  影像预处理
因为无人机的飞行高度通常较低,影像中的高层建筑经常会存在纹理倾斜、扭曲或缺失的问题,因此需对原始拍摄影像进行纠正及拼接操作。经过全自动镶嵌处理,生成快拼图成果。同时,由于影像分辨率为0.05~0.1m不等,为确保特征尺度一致,通过重采样的方式将不同分辨率的数据处理成0.05m的空间分辨率。
2.1.2  违建样本制作
预处理后的无人机影像经人工提取有施工痕迹或施工现象的图斑。以每个图斑为中心,对影像数据进行裁剪,生成可供模型训练的样本数据,样本符合VOC2012数据格式。因为违建生产图斑数量相对较少,为减少因样本量不足可能导致的过拟合问题,提高模型的泛化能力,对样本进行数据增强操作,增强方法及作用如下。
(1)坐标平移:通过九宫格裁剪方法,使目标地物尽可能位于裁剪影像的各个位置,以提升不同位置下的检测能力。
(2)随机角度旋转+水平翻转:对目标地物进行随机旋转及水平翻转,以提升不同旋转角度下的检测能力。
(3)影像模糊+随机裁剪:对裁剪影像进行随机高斯模糊、椒盐噪点,并进行随机裁剪,以提升不同分辨率、不同尺度下的检测能力。
(4)色彩抖动:对裁剪影像进行随机色调、对比度、亮度抖动,以提升不同色彩环境下的检测能力。
2.1.3  样本训练
FasterR-CNN 网络结构如图2所示。可选择ResNet50、VGG16 等卷积神经网络作为基础的特征提取网络,本文对这两种网络的效果进行了试验对比。

图2 Faster R-CNN网络结构
在深度学习中,充分训练一般要求百万数量级的图片。文献[13]通过试验对比得出结论:微调一 个预训练好的卷积神经网络,比从头开始训练网络 具有更好的分类精度和更快的收敛速度。ImageNet分类数据集[14],大约包含1000多类样本,训练图像120万幅,经过前期在该数据集上大量的训练工作,Faster R-CNN中特征网络的预训练模型已具有较好的精度。本文在试验中实际能获取的违章建筑图斑数不足5000 个,因此考虑采用上述迁移学习的思路解决训练样本不足的问题。
具体做法为:①加载ImageNet预训练模型后,将卷积层的前4层进行冻结,使训练时损失值不会反向传播回浅层,而只对深层的权重进行微调。②浅层卷积层提取边缘、轮廓之类的基础特征,而深层卷积层提取更为抽象的语义特征,更符合人类认知。③通过微调,模型可逐步学习深层的违章建筑图斑特征,最终完成从ImageNet 预训练模型至违建检测模型的迁移学习,实现少量样本下的快速收敛。
2.2 模型应用
无人机遥感影像每张快拼图影像大小通常都是10 000×10 000像素以上,无法直接输入到模型中进行预测。需对影像进行分块裁剪依次输入模型中进行预测。为避免部分潜在目标在裁剪时被切分开导致漏检,采用重叠区域滑动窗口裁剪方法,最大限度保证每张图片中均有潜在目标的完整地物。分块预测完成后,再全局执行一次非极大值抑制算法(nonmaximum suppression,NMS),将重复检测的违建目标矩形框进行合并,完成模型的预测。模型预测流程如图3所示。

图3 违建检测模型预测流程
3 试验与评估
3.1 试验数据
本文试验数据源于某遥感数据生产项目,该项目积累了较多违章建筑图斑生产数据。本文采用2019年6月17日至2019年7月10日共72幅分辨率为0.05m的无人机遥感影像为训练数据制作训练样本,影像中共包含1012个人工标注的违建要素图斑。经过数据增强处理,共得到72846幅样本图片。
3.2 评估指标
本文采用准确率和召回率这2个常用指标评价模型的精度。准确率表示模型正确检测的违章建筑个数占模型检测出的违章建筑总数的比例;召回率表示正确检测的违章建筑个数占实际人工标注的违章建筑总数的比例。具体定义为:

式中,TP为模型正确检测的违章建筑个数;FP为模型检测错误的违章建筑个数;FN为被漏检的违章建筑个数。结合实际生产要求,本文将人工标注的图斑轮廓与模型检测的矩形框重合度超过1像素作为正确检测的依据,生产人员在标注过程中,对每个矩形框及其周边一定范围进行核实,保障对模型召回率的评估效果。经过生产试验分析,90%的召回率及50%的准确率即可提升生产效率,满足实际生产需求。
3.3 试验结果与分析
试验在搭载NVIDIA Tesla V100 32 GB显存GPU的Ubuntu16.04系统上完成,使用深度学习框架TensorFlow进行算法开发。本文选取了部分未参与过训练的无人机影像作为测试数据,对模型的精度和效率进行评估。测试数据为2019年5月25日2幅无人机影像,包含人工标注违章建筑图斑共147个。模型检测结果为可与遥感影像正常套合的SHP文件,其中每个要素即为检测出的违章建筑外包矩形框,属性表中包含得分字段(score),用以说明该要素被检测为违章建筑的概率,通过得分值可筛选出概率较高的检测结果。本文对不同得分阈值下的准确率和召回率进行统计,用于分析最优的选择策略。基于ResNet50和VGG16的模型精度评估结果分别见表1—表2。
表1 测试影像模型检测结果评价( 基于ResNet50)
 表2 测试影像模型检测结果评价( 基于VGG16)

从评估结果可以看出,基于ResNet50的违章建筑检测模型比基于VGG16的模型在准确率上平均高出8%,召回率差别不大,基本均在90%左右,可满足项目生产对精度的要求,在此基础上,选取合适的得分阈值可适当提升准确率,从而提升后处理筛查的效率,推荐阈值设置为0.2。对比不同特征提取网络,发现ResNet50较VGG16更能学习到违章建筑的地物特征。此外,当得分阈值升高时,各模型检测数量显著降低,使得准确率上升,但召回率下降相对较慢。说明得分高的检测结果与人工标注结果匹配度较高, 模型学到的特征较好。测试区域1和测试区域2的整体检测效果(基于ResNet50)如图4—图5所示。

   图4 测试区域1检测效果

  图5 测试区域2检测效果
由图4、图5可见,整体检测效果较好,其中,黄色轮廓为人工标注数据,红框为模型检测结果。但模型仍检测出了道路区域及部分正常建筑,并且出现了少量漏检的地物,原因为样本量不足,模型还未学习到足够多的违章建筑地物特征,如图6所示。
图6 违建检测模型部分检测结果
在效率方面,测试区域1检测耗时22min 21s;测试区域2检测耗时2min 4s,模型计算速度较快。测试区域1大小的影像,一般人工作业耗时6~7 h,机器检测不到0.5h,检测后只需人工对每个检测结果进行核实、编辑,可大幅度提升人工作业的效率。
4 结 语
针对无人机遥感影像违章建筑检测的问题,本文利用主流的深度学习目标检测网络Faster R-CNN 算法进行了遥感影像违章建筑检测方法的研究,对比了不同特征提取网络对模型精度的影响。本文模型在实际项目中进行测试,具有较好的准确率和召回率,并且具备较高的检测效率,可大幅度提升人工作业的效率。
本文验证了通过卷积神经网络进行遥感目标检测在实际生产项目中的可行性,由于深度学习训练依赖大量的样本,然而本文训练样本较少,因此模型未完全学习到违建特征,导致存在部分错检及漏检的情况,可通过提升样本数量解决模型过拟合问题或优化特征提取网络,如结合特征金字塔网络解决多尺度检测问题,预期可进一步提升模型检测的精度。除了目标检测外,深度学习中的图像分割算法也逐渐成为热门的研究方向,通过分割算法,实现违章建筑地物轮廓的准确提取,降低人工勾绘建筑物轮廓的工作量,将进一步提升生产质量和效率,满足数据生产的需求。

参考文献

‍‍‍‍‍‍‍‍[1]王鑫,李可,宁晨,等.基于深度卷积神经网络和多核学习的遥感图像分类方法[J]. 电子与信息学报, 2019, 41( 5) : 1098-1105.

[2] 冯子勇.‍‍‍‍‍‍‍基于深度学习的图像特征学习和分类方法 的研究及应用[D].广州: 华南理工大学,2016.

[3] 林妙真.基于深度学习的人脸识别研究[D].大连:大连理工大学, 2013.

[4] 奚雪峰,周国栋.面向自然语言处理的深度学习研究[J].自动化学报, 2016, 42( 10) : 1445-1465.

[5] 张建华.基于深度学习的语音识别应用研究[D].北 京:北京邮电大学, 2015.

[6] 戴陈卡,李毅.基于Faster RCNN以及多部件结合的机场场面静态飞机检测[J].计算机应用,2017,37 ( S2) : 85-88.

[7] 张通,潘励.一种高分辨率遥感影像建筑物自动检测方法[J].测绘地理信息,2020,45( 2) : 101-105.

[8] 徐刚,岳继光,董延超,等.深度卷积网络卫星图像水泥厂目标检测[J].中国图象图形学报,2019,24( 4) : 550-561.

[9] 王颖洁,张荞,张艳梅,等.基于深度卷积神经网络的油罐目标检测研究[J].遥感技术与应用,2019,34 ( 4) : 727-735.

[10]REN S Q,HE K M,GIRSHICK R,et al. Faster RCNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39( 6) : 1137- 1149.

[11]REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once: unified,real-time object detection[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas: IEEE,2016: 779- 788.

[12]LIU W,ANGUELOV D,ERHAN D,et al. SSD: single shot multiBox detector[C]∥European Conference on Computer Vision. [S.l.]: Springer,2016.

[13] YOSINSKI J,CLUNE J,BENGIO Y,et al. How transferable are features in deep neural networks? [J]. Advances in Neural Information Processings System,2014,2: 3320- 3328.

[14] RUSSAKOVSKY O,DENG J,SU H,et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision,2015,115: 211-252.

—— 往期阅读 ——

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存